连载(14):统计图形艺术——非线性回归
中国近代启蒙思想家、翻译家严复(1854-1921)提出,翻译力求信、达、雅。统计图形,亦须如此。信(faithfulness),指意义不悖原文,要准确传达数据原有之义,不偏离,不遗漏,也不要随意增减意思;达(expressiveness),指不拘泥于固有形式,译力求通顺、易懂、明白;雅(elegance),指选用的图形、样式要得体,力求简明、优雅。
生物医学研究产生的数据纷繁复杂,合适的统计图形能够准确、简明、优雅的勾勒出数据背后之意,消除医学-数据-内涵之间的障碍,准确传递生物医学研究成果,这就是医学统计图形的魅力。
历经半年准备,我们图形小组将按照数据可视化、统计可视化、集成可视化三个模块,连载推送医学研究中常用统计图形之背景、场景、拓展、要点。文稿有多处不足,请广大读者斧正。尚有多处示例待优化,欢迎提供素材。
非线性回归Nonlinear Regression
1763年,意大利数学家博斯科维奇假定,物质是由相互作用的许多离散分子组成的,而分子相互作用力和距离间存在非线性关系(图 14.1)。
图14.1: 分子相互作用力理论
通过散点图观察到两个变量间存在潜在的非线性关系,进而选用合适的非线性方法来反映其趋势。
多项式回归是一种回归模型形式,自变量x和因变量y的关系被表示为x的n阶多项式,用以体现x与y条件均数[E(y|x)]间的非线性关系。最早的多项式回归可追溯至法国数学家Joseph Diez Gergonne于1815年所发表的论文。
虽然多项式回归可拟合非线性关系,但从统计估计角度看,它是“线性的”。因此,多项式回归又被认为是多重线性回归(multiple regression)的特例。参数可用最小二乘法来求解,基于Gauss-Markov原理,使得系数无偏估计的方差最小化。
以化合物合成为例,化合物合成产量和温度有关。经验可知,温度每增加一个单位,在更高的温度水平上,其产量提升更为明显。因此,可用二次多项式来表达温度和化学合成产量之关系更合适。即,x每增加一个单位,y的平均改变量随着x的变化而变。
,可变换为:
当然,可以扩展至n阶多项式回归。多少阶为最佳?可用交叉验证等方法获得。
例: 以Stata软件中所用的汽车碰撞试验中假人头部加速度和碰撞后时间的数据为例 [1],展示多项式回归结果可视化。该数据包含133条记录,accel表示撞击后头部加速度(g),time表示撞击后间隔时间(ms)。首先通过交叉验证法探索多项式最佳阶数,如图A所示,在8阶交叉验证获取的误差(cross validation error, CV error)最小,而后绘制多项式回归拟合曲线(图 14.2B)。
图14.2:汽车撞击后时间和假人头部加速度的多项式回归
凹凸曲线,含指数函数(exponential function),渐进函数(asymptotic),幂函数(power function),对数函数(logarithmic function),长方形双曲线(rectangular hyperbola)等。
例:本例来自16只鼠血清DNase重组蛋白ELISA检测试剂盒的研究数据,每份样本经过11次重复测量,探索浓度(conc)和吸光度值(OD值, density)之间的凹凸函数趋势关系(图 14.3)。
图14.3:凹凸函数回归案例
S型曲线,又称为乙状曲线,其曲线中部存在一个“拐点”,“拐点”前后的变化趋势有所不同。logistic曲线、gompertz曲线、log-logistic曲线、Weibull曲线等属于此类。
例:续上例,用DNase数据展示4种S型曲线的拟合效果(图 14.4)。
图14.4:S型曲线回归案例
最小二乘法,是估计在给定自变量情况下的应变量之条件均数;而分位数回归,是估计给定自变量情况下的应变量的条件分位数(如中位数),在应变量存在异常值时,分位数回归更为稳健。分位数回归的雏形由天主教牧师Ruđer Josip Bošković于1760年提出,用于探索“地球自传导致赤道隆起”这一现象。在此期间提出最小一乘法,比Legendre提出最小而二乘法早了50年。Pierre-Simon Laplace和Francis Edgeworth等数学家亦作出贡献。美国定量经济学家Roger William Koenker完善了分位数回归的理论方法和工具(2005),而被人所熟知 [2]。
例:以孟加拉出生队列中母亲孕早期外周血血清Sr元素暴露水平和新生儿出生体重的关联性研究为例,拟合10%至90%分位数的回归;可见,在出生体重低分位数人群中,母亲Sr元素水平与出生体重的关联效应更强(回归线更为陡峭)(图 14.5A)。将各分位数的回归系数估计值抽提出来单独绘制系数及区间带,更为直观(图 14.5B)。
图14.5:母亲孕早期血清Sr元素水平和
新生儿出生体重之分位数回归
亦可采用平滑的分位数回归,以拟合每一条分位数回归曲线(图 14.6);在样本量较低情况下或变量连续性欠佳情况下,需谨慎过拟合现象。
图14.6:母亲孕早期血清Sr元素水平和
新生儿出生体重之分位数曲线回归
非线性回归分析的第一步,是选择合适的非线性函数,需依赖于研究者的经验和对数据趋势的感知能力。 模型的迭代需要依赖于参数初始值设定,若初始参数设置不当,可能会影响模型的收敛。 适可而止,过犹不及,拟合亦如此。
参考文献:
D J, Mathematica G. The application of the method of least squares to the interpolation of sequences. 1974;
Koenker R. Quantile regression [Internet]. Cambridge University Press; 2005. Available from: https://EconPapers.repec.org/RePEc:cup:cbooks:9780521845731
写作:魏永越*,张隆垚
排版:李 颖
审阅:陈 峰
欢迎供稿 | 敬请斧正
easyPlot小组 (easyplot@126.com)
责任作者 (weiyongyue@126.com)
Powered by 百步科技
连载(2):统计图形艺术——线图
连载(3):统计图形艺术——饼图
连载(4):统计图形艺术——直方图
连载(5):统计图形艺术——点图
连载(6):统计图形艺术——箱线图
连载(7):统计图形艺术——散点图
连载(8):统计图形艺术——热图
连载(9):统计图形艺术——三元图
连载(10):统计图形艺术——QQ图
连载(11):统计图形艺术——概率和统计分析
连载(12):统计图形艺术——曲线平滑
连载(13):统计图形艺术——线性回归
统计图形艺术——“图形”英文词意辨析